Formation Site Reliability Engineering – SRE

Site Reliability Engineering – SRE

La formation « Site Reliability Engineering - SRE » vous permettra de comprendre les principes fondamentaux de la Site Reliability Engineering et son rôle au sein des organisations modernes; de mettre en œuvre des outils et des pratiques pour améliorer la fiabilité des systèmes et de diagnostiquer et résoudre efficacement des incidents en production tout en rédigeant des rapports exploitables. Cette formation vous permettra également d'identifier des tâches répétitives (toil) et proposer des solutions d'automatisation pour améliorer l'efficacité des équipes et de concevoir des systèmes tolérants aux pannes et résilients grâce à des pratiques comme l'ingénierie du chaos et une approche centrée sur l'observabilité. Le programme est donné à titre indicatif et sera adapté à vos besoins et votre niveau après audit. N’hésitez pas à nous contacter pour toute demande spécifique.

SRE

En résumé

  • distantiel Distanciel
  • présentiel Présentiel
  • Pré-requis

    Connaissance de base en systèmes informatiques et infrastructure (serveurs, réseaux), compréhension des concepts DevOps.

  • Public concerné

    Ingénieurs développement logiciel, administrateurs système, ingénieurs DevOps, managers techniques, chef de projet.

  • Durée et tarif de la formation

    La durée de la formation varie en fonction des besoins et des objectifs déterminés après audit. Les tarifs sont disponibles sur devis.

  • Lieux

    Formation intra-entreprise au sein de votre établissement ou dans nos locaux de LA ROCHELLE (Charente-Maritime), NIORT (Deux-Sèvres) ou POITIERS (Vienne)

  • Téléchargement

    Télécharger le programme de formation au format PDF

Contenu de la formation

Origines et principes de la SRE
  • L’émergence de la SRE chez Google et son lien avec DevOps.
  • Rôles et responsabilités d’une équipe SRE.
  • Cycle de vie d’un logiciel et gestion de la fiabilité.
Monitoring et Observabilité
  • Monitoring vs observabilité : différences et complémentarité.
  • Concepts clés : logs, métriques, traces, alertes.
  • Mise en pratique : concevoir un système d’alertes efficace.
SLA, SLO, SLI et gestion des budgets d’erreur
  • Définitions et importance pour la fiabilité des systèmes.
  • Introduction à la gestion des budgets d’erreur.
  • Étude de cas : définir des SLO et calculer un budget d’erreur.
Gestion des incidents
  • Organisation des équipes on-call et bonnes pratiques.
  • Diagnostiquer efficacement un incident.
  • Rédiger des rapports post-incident (blameless postmortems).
  • Exercice : étude d’un incident fictif.
Automatisation et réduction du toil
  • Identifier les tâches répétitives et à faible valeur ajoutée.
  • Stratégies pour l’automatisation efficace.
  • Atelier : repérer des tâches automatisables dans un environnement simulé.
Résilience et Ingénierie du Chaos
  • Conception pour la résilience et la tolérance aux pannes.
  • Introduction à l'ingénierie du chaos : principes et mythes.
  • Exemples concrets d'exercices GameDay.
Conception et observabilité avancées
  • Traçage distribué et instrumentation.
  • Les piliers de l’observabilité full stack.
  • Atelier : implémenter des contrôles synthétiques pour un système distribué.
Culture et organisation en SRE
  • Intégration des SRE dans une organisation agile.
  • Construire une culture de sécurité psychologique et d’apprentissage continu.
  • Impact de la SRE sur les équipes DevOps.

Les + de Neuro Active

  • Formations sur mesure
  • Formateurs experts
  • Certifié Qualiopi
  • Formation finançable par votre OPCO

Un renseignement, une question ?

Contactez-nous